Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Una introducción al Sentiment Analysis (página 2)




Enviado por Pablo Turmero



Partes: 1, 2

Monografias.com

Retos
¿Qué hace a estas tareas especialmente difíciles?

Fuerte dependencia con el contexto y con el dominio

Importancia fundamental de la estructura del discurso

Necesidad de disponer de conocimiento del mundo

Ambigüedad inherente

Fenómenos pragmáticos

Monografias.com

Tareas
Algunas de las tareas englobadas dentro del término Sentiment Analysis

Clasificación de documentos de opinión
Binaria (Sentiment polarity)
Multiclases (Rating inference)
Detección de subjetividad
Extracción de opiniones
Clasificación de la perspectiva
Determinación de la intensidad de las opiniones
Clasificación de las emociones
Detección de humor

Monografias.com

Clasificación de documentos de opinión
Documento de opinión
Clasificador
Opinión positiva
Opinión negativa
Clasificador binario

Monografias.com

Clasificación de documentos de opinión
Documento de opinión
Clasificador
5
1
Rating Inference
Puntuación

Monografias.com

Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (Turney, 2002)
Extracción de bigramas: se seleccionan bigramas que contengan adjetivos o adverbios, según cinco reglas morfosintácticas muy simples.

Orientación semántica: valor real cuyo signo determina la implicación positiva o negativa del término y cuyo valor absoluto determina la intensidad de dicha implicación.

Clasificación de documentos de opinión

Monografias.com

Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (Turney, 2002)
Clasificación de documentos de opinión

Monografias.com

Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (Turney, 2002)
Clasificación de documentos de opinión

Monografias.com

Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español (F.Cruz et al., 2008)
Corpus en castellano: formado por críticas de cine extraídas de http://www.muchocine.net

Críticas introducidas por usuarios

Textos procesados con FreeLing (Atserias et al., 2006)
Disponible en http://www.lsi.us.es/~fermin/corpusCine.zip
Clasificación de documentos de opinión

Monografias.com

Clasificación de documentos de opinión
Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español (F.Cruz et al., 2008)
Tres experimentos realizados

(Gp:) 1
(Gp:) Reproducción del clasificador no supervisado de Turney
(Turney, 2002)

Semillas y patrones de extracción adaptados al castellano.

(Gp:) 2
(Gp:) Utilización de semillas múltiples

(Gp:) 3
(Gp:) Búsqueda supervisada del umbral óptimo entre clases para la suma de las orientaciones semánticas.

Monografias.com

Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español (F.Cruz et al., 2008)
Clasificación de documentos de opinión

Monografias.com

Thumbs up? Sentiment Classification using Machine Learning Techniques (Pang et al., 2002)
Corpus de críticas de cine extraídas de iMDb
Afrontan el problema como si se tratara de una clasificación basada en topic.
Estudio previo: selección de palabras clave para cada categoría

Clasificación de documentos de opinión

Monografias.com

Thumbs up? Sentiment Classification using Machine Learning Techniques (Pang et al., 2002)
Aplicación de tres algoritmos de machine learning
Naive Bayes
Maximum Entropy
Support Vector Machines

Clasificación de documentos de opinión

Monografias.com

Sentiment Classification Using Word Sub-sequences and Dependency Sub-trees (Matsumoto et al., 2005)
Sobre el mismo corpus anterior, se emplean features que capturan la aparición de secuencias frecuentes de palabras y de subárboles de dependencias.

Utilizan SVM
Alcanzan una precisión
de 92.9%

Clasificación de documentos de opinión

Monografias.com

Seeing stars: Exploiting class relationships for sentiment categorization with
respect to rating scales (Pang and Lee,2005)
Rating inference: dado un documento de opinión, determinar si la opinión es positiva o negativa dentro de una escala (p.ej. de 1 a 5)

Tres aproximaciones
Clasificador multiclases
Regresión
Metric labelling

SVM
Multiclases < Regresión ˜ Metric labelling
Clasificación de documentos de opinión

Monografias.com

Detección de subjetividad
Unidad textual
Clasificador
Objetivo
Subjetivo (opinión)

Monografias.com

Learning Extraction Patterns for Subjective Expressions (Riloff and Wiebe,2003)
Primero, se utilizan clasificadores con alta precisión (pero baja cobertura) para detectar oraciones objetivas y subjetivas. Basados en items léxicos (palabras y n-gramas) recolectados a mano.

A partir de las oraciones identificadas, se construyen mediante aprendizaje reglas de extracción de patrones. Se restringe el tipo de patrones que se pueden extraer, mediante plantillas sintácticas, e.g., < subj> passive-verb.

Se utilizan los patrones aprendidos para extraer nuevas oraciones objetivas y subjetivas. El proceso se repite…

Detección de subjetividad

Monografias.com

Learning Extraction Patterns for Subjective Expres (Riloff and Wiebe,2003)
Algunos patrones extraídos

Detección de subjetividad

Monografias.com

Extracción de opiniones
Documento de opinión
(Análisis de un producto)
Detector de features
Detector de opiniones
Clasificador de opiniones
*Opcional
*
Opiniones

Monografias.com

Mining Opinion Features in Customer Reviews (Hu and Liu, 2004)
Generación de un “resumen” de las opiniones acerca de un producto extraídas de un conjunto de reviews
Digital_camera_1:
picture quality:
Positive: 253 < individual reviews>
Negative: 6 < individual reviews>
size:
Positive: 134 < individual reviews>
Negative: 10 < individual reviews>

Tres problemas
Extracción de features
Extracción de opiniones
Clasificación de las opiniones

Extracción de opiniones

Monografias.com

Mining Opinion Features in Customer Reviews (Hu and Liu, 2004)
Extracción de opiniones
Extracción de features
Se extraen palabras o n-gramas frecuentes
Se eliminan aquellos que:
Si aparece de manera compacta en menos de dos oraciones
Si están contenidos en un feature de más tamaño

Extracción de opiniones
Adjetivos cercanos a los features

Clasificación de las opiniones
Se utiliza WordNet para decidir la orientación semántica de los adjetivos (Miller et al., 1990)

Monografias.com

Clasificación de la perspectiva
Unidad textual
Clasificador
A favor
En contra

Monografias.com

Get out the vote: Determining support or opposition from Congressional
floor-debate transcripts (Thomas et al.,2006)
Corpus generado a partir de http://govtrack.us

Transcripciones de debates legislativos, divididos por intervenciones. Cada intervención es etiquetada según la votación posterior del político (apoya o no apoya la ley).

Problema: ante una nueva intervención, decidir si es de apoyo o de rechazo a la ley.

Clasificación de la perspectiva

Monografias.com

Get out the vote: Determining support or opposition from Congressional
floor-debate transcripts (Thomas et al.,2006)
Sistema en dos niveles
Clasificador binario (SVM): decide de forma independiente la probabilidad de que una intervención sea de apoyo o de rechazo.
Detección de acuerdos (SVM): detecta acuerdos o desacuerdos entre dos intervenciones.

Ambos modelos son entrenados sobre un mismo training.
Se utiliza una técnica basada en grafos (minimum cuts) para encontrar las clases de salida óptimas.

Precisión: 71,28%

Clasificación de la perspectiva

Monografias.com

Otras tareas
Intensidad de las opiniones
Puede verse como una clasificación no binaria de la subjetividad (p.ej. neutral, low, medium, high)
Just how mad are you? Finding strong and weak opinion clauses (Wilson et al., 2004)

Clasificación de emociones
Clasificar unidades textual según la emoción que contienen: anger, disgust, fear, happiness, sadness y suprise (Ekman, 1982)
Emotions from text: machine learning for text-based emotion prediction (Alm et al.,2005)

Detección de humor
Clasificar una unidad textual como humorística o no
Humor: Prosody Analysis and Automatic Recognition
for FRIENDS (Purandare et al., 2006)

Monografias.com

Recursos
Corpus

Blog06: colección de entradas de blogs, con opiniones etiquetadas (positive, negative, mixture)
http://ir.dcs.gla.ac.uk/test_collections/access_to_data.html

Congressional floor-debate transcripts
http://www.cs.cornell.edu/home/llee/data/convote.html

Cornell movie-review datasets
Sentiment polarity
Sentence-level polarity
Sentiment-scale
Subjectivity dataset

http://www.cs.cornell.edu/people/pabo/movie-review-data/

Monografias.com

Recursos
Corpus

Customer review dataset: reviews de cinco productos electrónicos extraídos de Amazon y Cnet, etiquetados con features y opiniones
http://www.cs.ui.edu/~liub/FBS/CustomerReviewData.zip

Corpus Muchocine
http://www.lsi.us.es/~fermin/corpusCine.zip

Monografias.com

Recursos
Recursos léxicos

General Inquirer: incluye términos con varios tipos de orientaciones semánticas positivas o negativas, y palabras relacionadas con acuerdo y desacuerdo
http://www.wjh.harvard.edu/~inquirer

OpinionFinder’s Subjectivity Lexicon: diccionario de indicadores de subjetividad
http://www.cs.pitt.edu/mpqa/

SentiWordnet: los synsets de WordNet con puntuaciones que reflejan estádísticasmente cuando expresan opinión positiva/negativa, o cuando son objetivos
http://sentiwordnet.isti.cnr.it/

Monografias.com

Recursos
Competiciones

TREC Blog tracks: las sesiones organizadas en 2006, 2007 y 2008 proponen tareas de extracción y clasificación de opiniones de blogs

NTCIR-6: detección de oraciones con opinión y clasificación de las mismas (positivas, negativas o neutrales)

NTCIR-7: añade a la tarea anterior la clasificación de la intensidad de las opiniones (débil, media o fuerte)

Opinion pilot (TAC 08): resumen multidocumentos de opiniones a partir de blogs

Monografias.com

Recursos
Para saber más…

Opinion Mining and Sentiment Analysis *: survey realizado por Bo Pang y Lillian Lee de la Universidad de Cornell (2008)
*
Cualquier parecido con los contenidos de esta presentación es pura casualidad 😉

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter